查看原文
其他

“大数据时代”,想用好数据并不容易,先得搞懂统计学!

Masir123 科学羊 2024-03-31

大家好,我是科学羊🐑,这里是数学专栏概率论第3季第8篇。


今天我们谈谈数理统计,关于概率论的话题我们先到此,后面我们还会来阐述关于概率应用方面的知识。


在今天的讨论中,我们先探索下关于统计学的奥秘,


来自Echarts案例


其实,统计学(statistics)常被误解为概率论的简单延伸。然,远非如此。


统计学是一个独立而复杂的领域,专注于数据的收集、分析、解释和展示。


虽然概率论为统计学提供了数学基础,使之成为解读数据时不可或缺的工具,但统计学的应用远远超出了数学的范畴。


它融合了艺术和科学,不仅仅是通过数字计算,更关注于如何有效地呈现数据,以图表的形式让信息一目了然,这也是为何描述统计学成为其重要分支的原因。


统计学的历史源远流长,起初它被视为一种高尚的知识,专注于分析国家层面的数据。


德国学者戈特弗里德·阿享瓦尔将之定义为“研究国家的科学”,旨在通过数据分析制定国策。


随着时间的推移,统计学的应用领域不断扩大,现在它不仅仅局限于社会或国家层面的研究,而是成为了从商业到科学再到社会科学等各个领域中不可或缺的一部分。


统计学的主要目标是从海量的数据中寻找模式和规律,尤其是因素之间的相关性及潜在的因果关系。


这些发现有助于我们构建数学模型,预测未来的趋势和变化。


例如,通过分析词汇之间的关联性,我们能够在语音识别或拼音输入技术中更准确地识别和区分同音词。


这显示了统计学在现代技术进步中的重要作用。


然而,统计学的探索并非总是直接明了。


寻找背后规律的过程中,我们可能遇到众多误区,比如错误地将随机事件之间的偶然联系视为规律。这种误解常见于那些在数据分析过程中,未能充分考虑反例的情况。


此外,统计结果的主观性也是一个不可忽视的问题,如霍桑效应所示,被研究者知道自己被观察的事实可能会改变其行为,从而影响研究结果。


霍桑实验



在20世纪初期,心理学家们对美国西方电器公司位于霍桑市的工厂进行了一系列著名的实验,旨在探索提高工人生产效率的各种可能因素。


这些实验涉及了多个变量,包括工资水平、照明条件以及工作休息时间等,目的是通过实际改进这些条件来提升工作效率。


经过一系列的统计分析,心理学家们认为他们发现了这些因素与劳动效率之间的联系,并据此调整了工作环境。


例如,增加工作场所的照明亮度似乎会使工人的工作效率有所提高。


然而,这些改进措施的实际效果并不如预期,有的改进并未显著提升生产效率,有的则是效果短暂,很快又回落到了改进前的水平。


随着时间的推移,进一步的研究揭示了这些实验存在的问题,尤其是实验设计上的缺陷,如非双盲设置,使得所得结果的统计意义受到质疑。


当实验中提高了照明亮度,观察到的工作效率提升实际上并非由照明条件改善引起,而是因为工人意识到自己处于观察之下,从而更加努力工作。


这种因为受到关注而改变行为的现象,也在早期药物有效性的研究中得到了体现,即患者如果知道自己正在服用真正的药物而非安慰剂,其治疗效果似乎会更好。


这种现象被称为“霍桑效应”,指的是被观察者因知道自己正被观察而改变行为的倾向。


霍桑效应的影响远不止于个体,它还可以扩展到群体层面。


例如,一个国家如果宣布其GDP增长率高于实际数值,可能会激发公众对经济前景的信心,促使他们增加消费和生产,从而反过来真的推动GDP增长。


同样,当城市道路的拥堵信息被公开后,人们为了避开拥堵,可能会集体选择那些被标示为畅通的道路,结果却造成了新的交通拥堵


在今天的互联网时代,推荐系统根据你的阅读或购买历史推荐内容,可能导致你陷入一个信息泡沫,这同样是一种霍桑效应的体现。


通过这些实验和现象,我们可以看到,人们的行为往往会因为他们知道自己正在被观察或评估而发生变化。这些发现提醒我们,在进行任何形式的研究或实验设计时,都必须考虑到这种观察效应对结果的潜在影响。


总结



在大数据时代,尽管数据的量级和获取方式有了质的飞跃,但从数据中提炼出有意义的信息,依然是一项挑战。


过去十年,虽然“大数据”成为了企业讨论的热门话题,但并非所有企业都能从中获得实质性的收益。这提示我们,优秀的统计工作不仅仅需要精确的数学工具,更需要科学家和分析师的洞察力和创新思维。


所以,统计学是一门深奥而丰富的学科,它要求我们既要精通数学工具,又要具备解读和呈现数据的能力。


通过科学的方法和创新的思维,统计学使我们能够在看似杂乱无章的数据中,发现潜在的规律和联系,为决策提供科学依据。


那么如何利用好数据呢?


1、设立研究目标,比如,我们利用数据来证实什么假说,或者得到什么样的相关性。


2、设计实验,选取数据。这些数据需要能够方便量化处理。比如,你要识别图像,就需要将图像信息数字化,便于计算机处理。


3、根据实验方案进行统计和实验,分析方差。


4、通过分析进一步了解数据,提出新假说。


5、使用研究结果。包括将统计结果用于产品,也包括报告给别人。再多的数据,如果没有用正确的方法把它用好,实现它的真正价值,那他就只会是 “大” 数据。


好,今天就先这样啦!


科学羊🐏  2024/03/01

祝幸福~


参考文献:

[1].《吴军数学通识讲义》

感恩遇见,喜欢的话点个【在看】👍,有你们的支持是我最大的动力!




往期推荐



机器翻译是如何工作的?探索条件概率与贝叶斯公式的原理!

为什么宇宙自然的规律就是:一头富有,一头贫穷,而普通人在中间?

这本300年前由拉丁文写的原著,目前只有2个英文版本,没有之一!解读《自然哲学的数学原理》背后的故事。

300年前,为什么他早早就证明出了行星运动规律,但迟迟不发表呢?

继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存